时政
财经
科技
虚拟货币
其他
登录
#agentic LLM
关注
meng shao
18小时前
[论文解读] DeepAnalyze: Agentic LLM 助力自主数据科学 来自中国人民大学和清华大学团队的论文,提出 DeepAnalyze-8B 模型,基于 Agentic LLM 实现从原始数据到深度报告的自主数据科学,突破传统固定流程的局限。 核心贡献 · DeepAnalyze-8B:80亿参数开源模型,自主协调规划、数据理解、代码生成等任务,通过提示或微调支持数据问答、建模及开放研究。 · 课程式训练:从单一技能(推理、代码)到综合能力,结合强化学习解决反馈稀疏问题。 · 轨迹生成框架:通过多智能体交互和关键词引导,从数据集生成50万条高质量训练样本(DataScience-Instruct-500K,已开源)。 · 实现从数据清洗到报告生成的端到端流程。 方法概述 基于 DeepSeek-R1-0528- Qwen3-8B,模型通过五类行动标记(如⟨Analyze⟩规划、⟨Code⟩代码生成)循环优化输出。训练分两阶段: 1. 单一技能微调:监督学习提升推理、数据理解、代码能力,关键词优化增强表格处理。 2. 多技能训练:交互轨迹微调后,用.GRPO 强化学习,结合规则、准确性和 LLM 评分优化。 训练在 NVIDIA A800 GPU 上完成,支持 32K tokens 序列,轨迹从 Spider/BIRD 等数据集生成并过滤。 主要成果 在12个基准测试中,DeepAnalyze-8B 表现优异: · 完整流程(DataSciBench):成功率59.91%,完成率66.24%,接近GPT-4o(66.31%),数据准备(71.68%)和可视化(69.09%)领先。 · 分析/建模(DSBench):准确率30.04%,成功率90.63%,超GPT-4o智能体。 · 多步推理(DABStep):准确率38.88%,远超ReAct+GPT-4o(15.77%)。 · 深度研究(DABStep-Research):内容得分3.81/5,格式4.39/5,优于GPT-4o(3.05/5),案例中识别18-27%费用优化和35-42%欺诈降低潜力。 · 代码/表格问答:代码生成61.7%(超GPT-4-turbo 53.9%),表格问答64.47%(SOTA)。 消融实验显示课程训练提升23.54%,轨迹优化增4.57%。模型、代码、数据集已开源。 论文地址:
#DeepAnalyze-8B
#agentic LLM
#自主数据科学
#数据分析
#开源模型
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
智能体的阶段作用就是提供行为轨迹数据做agentic LLM内化
#多智能体之争:Anthropic生态VS单智能体· 60 条信息
#智能体
#行为轨迹数据
#agentic LLM
#内化
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
这篇论文让人想起agentic LLM还能走多远。LLM内部是否可以有多本体的NTP生成轨迹? 在充足且“行为可观测”的数据前提下,NTP 是把 agentic 模式“语言化并内化”的通用底座;配合 SFT 与 RL(PPO/GRPO)可使单体 LLM 展现广义 agentic 行为。 但是当任务需要真实的异质性、并行探索、在线协商/博弈与非语言状态耦合时,外化的多Agent系统与工具介入仍不可或缺。这也是综述把“agentic workflows”单独成章讨论的原因。
#多智能体之争:Anthropic生态VS单智能体· 60 条信息
#agentic LLM
#NTP
#多Agent系统
#语言模型
#行为可观测
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
这个有点意思,相当于一个可以规划多agent行动的LLM大脑!类似于在claude code里的用opus来自规划,然后创建多个subagent去干活!这就是专门做协调的agentic LLM,如果用在企业内部,就是个manager角色啊!主要是多agent协同的模式抽象成可激活的本体! CoA chain of agents通过动态激活一个模型中的多个角色和工具来推广ReAct/TIR,在减少agent间的喋喋不休的同时保持单一的相干状态。 总体而言,CoA可以训练原生单LLM模拟多agent协作的基础模型,将多agent蒸馏与agent RL相结合,以实现最先进的结果。 Project + Code + Models: Paper:
#多智能体之争:Anthropic生态VS单智能体· 60 条信息
#多Agent协同
#LLM大脑
#CoA
#agentic LLM
#企业manager角色
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
GPT4.5/5代表的预训练范式进入智能滞胀时期,agentic LLM的兴起预示着数字智能演化将进入了一个全新的阶段,而人类语言符号的表达(即整个互联网和书籍的文本数据)已经出色地完成了其作为数字智能“启动程序”(Bootstrapping)的历史进程。
#GPT4.5/5
#智能滞胀
#agentic LLM
#数字智能演化
#启动程序
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞